language model | kelijah

Генерация уместных вопросов с помощью языковой модели huggingface GPT-2

kelijah Mar 06, 2020 09:17

Второй эксперимент с теми же вводными, как описаны в предыдущем посте. Теперь используем реализацию языковой модели GPT-2 в pytorch библиотеке transformers. Для ее использования нужно только склонировать реп и перейти в подкаталог examples с которыми скриптами.

( Read more... )

генеративная модель, gpt-2, генерация текста, language model

Leave a comment

Тренировка BERT на русском корпусе: непривычно видеть такую кривую обучения

kelijah Dec 26, 2018 18:08

В порядке эксперимента обучаю упрощенную модель BERT (урезал число heads и т.д.) на свое русском корпусе.
То, что обучается медленно - факт. Но дело не в этом. Вот как выглядят кривые loss (на обучающей выборке) и val_loss (на валидационной):
( Read more... )

bert, нейросети, vector space model, nlp, language model

Три варианта рекуррентно-сверточных сетей в задаче определения длины ответа

kelijah Jan 29, 2018 21:49

(предыдущий пост с описанием моделей чат-бота тут: https://kelijah.livejournal.com/232313.html)

Код для тренировки вспомогательной модели, которая определяет число слов ответа для заданной предпосылки и вопроса выложен тут https://github.com/Koziev/chatbot/blob/master/PyModels/nn_answer_length.py.
( Read more... )

convolutional networks, chatbot, language model, lstm, keras, рекуррентные сети, python, чатбот

Leave a comment

Движок логического вывода на базе DNN моделей ("умный" chatbot)

kelijah Dec 03, 2017 16:01

Далее - результаты работы тестовой версии chatbot'а на базе нейросетевого движка логического вывода:

( Read more... )

deep learning, вербальный интерфейс, семантика, nlp, chatterbot, language model

Представления слов: исправления, улучшения, сравнение Python / Java / C++ реализаций нейросетей

kelijah Sep 05, 2017 16:50

1. В Keras-реализации решения нашел data leak из валидационных данных в тренировочный набор (как обычно по причине копипасты фрагментов из своих же исходников). После исправления стал получать намного более консистентные результаты: точность на одинаковых данных для сопоставимых архитектур нейросетей в Keras+Theano и в Tensorflow решениях стала ( Read more... )

vector space model, #6, java, c++, language model, neuronet, keras, vector model, python, machine learning

Leave a comment

Сверточная архитектура нейросети для построения Language Model

kelijah Aug 25, 2017 17:00

Для эксперимента с оценкой вариантов представления слов добавил сверточную архитектуру - см. файл wr_keras.py и константу NET_ARCH.

С поправкой на большую variance, характерную для сверточного варианта в сравнении с feed forward MLP, эта сетка бьет MLP с ощутимым запасом. Например, для 4-грамм имеем:
( Read more... )

vector space model, keras, nlp, vector model, word embedding, language model

Leave a comment

Текущие результаты для keras/theano MLP модели в эксперименте с word representations

kelijah Aug 23, 2017 18:15

Репозиторий эксперимента: https://github.com/Koziev/WordRepresentations

Сделал условный grid search для основных гиперпараметров. Для 2-грамм и 3-грамм эксперимент закончен, для 4-грамм продолжается:
( Read more... )

vector space model, vector model, word2vec, word embedding, N-граммы, language model

Leave a comment

Решение бинарной классификационной задачи на C++ с помощью Apache.SINGA, tiny-dnn и OpenNN

kelijah Aug 17, 2017 18:58

1. Выложил в репозиторий эксперимента cеточные модели для бинарной классификации на C++ в Apache.SINGA, OpenNN и tiny-dnn:

TinyDNN_Model.cpp - решатель на базе MLP, реализованного средствами библиотеки tiny-dnn (C++, проект для VS 2015)
alexnet.cc - решатель на базе нейросетки, реализованной средствами Apache.SINGA (C++, проект для VS 2015)
main. ( Read more... )

статья, текущие планы, deep learning, nlp, c++, language model, machine learning

Сравнение разных способов представления слов для NLP задачи построения языковой модели

kelijah Aug 01, 2017 15:02

В слаке ODS недавно проскочила тема про варианты представления категориальных переменных для решающих деревьев. В частности, приводилась ссылка https://medium.com/data-design/visiting-categorical-features-and-encoding-in-decision-trees-53400fa65931. А я как раз хотел еще раз поднять тему с использованием Brown Clustering представлений слов для NLP ( Read more... )

vector space model, xgboost, vector model, python, language model

Leave a comment

Нейросетевые модели для определения перефразировок вопросов (4)

kelijah Jun 29, 2017 09:41

[начало тут http://kelijah.livejournal.com/212124.html, скрипты моделей тут https://github.com/Koziev/QuoraQuestionPairs]
Удвоение датасета400 тысяч пар вопросов в обучающей выборке - это неплохо, но нейросетки очень любят много данных. Чем больше свободных параметров у модели, тем больше требуется обучающих примеров для их настройки. Поэтому ( Read more... )

нейросети, соревнования, kaggle, language model, neuronet, machine learning

Leave a comment